當前的MT(Machine Translation, 機器翻譯)模型多著墨於T2TT(Text-to-Text Translation),如NO Language Left Behind(NLLB)團隊所開發的T2TT模型涵蓋約200種語言,然而目前的S2ST(Speech-to-Speech Translation)所能涵蓋的語言數量難以達到此規模,此現象發生的原因主要有兩個:1) 相較於文本數據,可用的語音數據很稀少,2) 模型的侷限性。
歸納當前S2ST系統有三個發展障礙:
MetaAI的新模型SeamlessM4T(Massively Multilingual & Multimodal Machine Translation)宣稱可以弭平這些障礙,SeamlessM4T是一個支援ASR、T2TT、S2TT(Speech-to-Text translation)、T2ST(Text-to-Speech translation)以及S2ST的統整系統。同時支援多國語言,它的S2ST模型可成功將100種語音轉譯成英語語音,將英語語音轉譯成35種語音;S2TT模型可成功將100種語言語音轉譯成英語文字,將英語語音轉譯為95種語言文字;ASR則能夠辨識96種語言;T2ST則可將95種語言文字轉譯為英語語音,將英語文字轉譯為35種語言語音;最後是T2TT可以將英語及另外95種語言做文字互譯。
*上圖取自MetaAI官網 https://ai.meta.com/blog/seamless-m4t/
在功能強大的SeamlessM4T的促使下,好奇它的ASR、T2TT、S2TT、T2ST及S2ST五種模型的架構及應用,故將陸續研究其架構及程式碼並結合應用,作為深入語音辨識的基石。